强化学习框架:问题
Back to Home
01. 简介
02. 设置 - 回顾
03. 阶段性任务与连续性任务
04. 练习:知识测验
05. 练习:阶段性或连续性?
06. 奖励假设
07. 目标和奖励(第 1 部分)
08. 目标和奖励(第 2 部分)
09. 练习:目标和奖励
10. 累积奖励
11. 折扣回报
12. 练习:杆平衡
13. MDP(第 1 部分)
14. MDP(第 2 部分)
15. 练习:一步动态特性(第 1 部分)
16. 练习:一步动态特性(第 2 部分)
17. MDP(第 3 部分)
18. 有限 MDP
19. 总结
Back to Home
10. 累积奖励
累积奖励
Next Concept